PolicyGuard: defensa adversarial en tiempo de prueba y por paso para RL PolicyGuard defiende agentes de RL contra ataques backdoor en tiempo de prueba, usando procesos Gaussianos para detectar anomalías paso a paso. Resultados state-of-the-art. 2026-06-12 · 2 min